资讯

Reddit现已封锁互联网档案馆 (IA)对热门Reddit帖子的索引,原因是发现一些被限制抓取Reddit数据的AI公司,转而从IA的存档内容中抓取数据。 此前,IA的Wayback ...
AI公司发现通过Wayback Machine抓取Reddit的历史数据,既无需遵守Reddit的平台政策(如付费、合规协议),又能获取训练所需的大量内容,于是就利用这一漏洞开始了违规“曲线获取数据”的行为。 Reddit发言人Tim ...
Reddit 发言人在向媒体解释这一变化时表示,这是因为一些 AI 企业以违反平台政策的方式通过互联网档案馆的存档页面抓取该企业数据。Reddit 允许企业付费抓取 AI 所需的数据,但 经由互联网档案馆间接访问显然绕过了这一规定 。
最初,数据抓取只是业余爱好者的一种边缘策略,如今已演变成一个由商业数据聚合器驱动的、价值数百亿元的复杂生态系统——自动机器人在面向公众的网站上撒下大网,收集价格数据、产品列表、评论等,其速度通常比人类点击“刷新”的速度还要快。如今,这些实体经常绕过传 ...
十轮网科技资讯 on MSN8 小时

Reddit将封锁Internet Archive的大部分爬取

The Verge本周报道,社交新闻平台Reddit即将封锁网际网络文件馆(Internet Archive)对该平台的大部分爬取,原因是许多AI企业都借由该馆的时光机(Wayback Machine)功能来抓取Reddit内容。
熟悉苹果产品的朋友可能知道,在苹果今年早些时候的一篇论文里,就提到过桌面机器人这个构想,当时还放出了展示,内部人戏称为“皮克斯台灯”。
播放量250万,月活听众超王菲,一支你找不到真人的“AI乐队”正在颠覆音乐圈。Velvet ...
受大语言模型(LLMs)等技术发展的推动,AI 领域的论文发表量正经历指数级飙升,预计未来将增长数倍。这种爆炸性增长已引发严重问题:海量的投稿不仅淹没了同行评审系统,引发了对其公正性的担忧,也为学术不端行为提供了可乘之机。
IT之家8 月 9 日消息,Mozilla 三周前发布了 Firefox 141 版本,除针对 Linux 的内存优化及内置单位换算工具外,还引入了 AI 标签分组功能。该功能基于端侧 AI 模型,可自动识别 Firefox 标签页并给出分组名称的建议。 不过,该功能在 Firefox 用户社区引发争议。大量用户反馈称,启用该功能后 CPU 占用显著升高、电量迅速消耗,还有人称其为“垃圾功能”,并 ...
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。